Бесплатно скачать ByteScout PDF Extractor SDK для Windows XP ::: Разработка

ByteScout PDF Extractor SDK

Скриншот программы:

Детали программы:

Версия: 9.0.0.3079 ^{обновление}

Дата загрузки: 15 Aug 18

Разработчик: ByteScout

Тип распространения: Условно-бесплатная

Цена: 10.00 $

Популярность: 193

Размер: 596 Kb

Скачать

Currently 3.25/5
1
2
3
4
5

Rating: 3.3/5 (Total Votes: 4)

PDF Extractor SDK для разработчиков программного обеспечения Windows: PDF в текст, PDF в XML, изображения из PDF, чтение PDF-данных, PDF в CSV для Excel.

Bytescout PDF Extractor SDK позволяет конвертировать PDF в текст, PDF в XML, PDF в CSV, извлекать изображения из PDF, извлекать информацию о файлах PDF в .NET и ActiveX-интерфейсах без какого-либо дополнительного программного обеспечения.

Выгоды:
конвертирует PDF в обычный текст (и может следовать столбцам, если вы конвертируете газету в формате PDF) - включая невидимое извлечение текста;
конвертирует таблицы в PDF в Excel (CSV), читая ячейки из данного прямоугольника;
конвертирует таблицы в файлы PDF в XML;
извлекает метаданные файла PDF (название, автор, описание) и получает другую информацию о файле (количество страниц, зашифрованных или нет);
извлекает встроенные изображения из документа PDF (в ASP.NET, VB.NET, C #, VB6 и VBScript);
Интерфейсы и классы DocumentMerger и DocumentSplitter для объединения и разделения PDF-документов;
не требует установки Adobe Reader или любого другого программного обеспечения для чтения PDF-файлов;
предоставляет интерфейсы .NET и ActiveX;
сделанный с 100% -ным кодом C #.

Что нового в этой версии:

Версия 9.0.0.3079: Добавлена фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.

Что нового в версии 8.7.0.2980:

Добавлена фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.

Что нового в версии 8.6.0.2911:

Что нового в версии 8.2.0.2699:

Версия 8.2.0.2699 может включать неопределенные обновления, улучшения или исправления ошибок.

Что нового в версии 8.0.0.2528:

Добавлена фильтрация извлеченного контента по имени, размеру шрифта и цвету.

Обновлен движок OCR до последней версии. Обновите языковые файлы из папки "tessdata".

Улучшено извлечение текста.

Улучшена группировка строк в табличных данных.

Улучшена производительность.

Улучшено извлечение форм XFA.

Улучшен TableDetector.

Исправлены проблемы с анализом PDF.

Исправлено декодирование изображений JBIG.

ImageExtractor: исправлено удаление изображения на одной странице.

MultimediaExtractor: исправлено извлечение встроенного аудио MPEG.

TextExtractor: исправлено неработающее свойство RemoveHyphenation.

Другие незначительные улучшения и исправления ошибок.

Что нового в версии 7.0.0.2474:

Версия 7.0.0.2474:

добавлен новый класс утилиты DocumentPrinter, позволяющий без труда печатать документы PDF (без каких-либо диалогов пользователей)
добавлен новый класс JSONExtractor
добавлено переопределение для метода DocumentSplitter.Split (), позволяющего указать выходную папку для сгенерированных файлов
исправлена ошибка многопоточности в DocumentSplitter
tableDetector теперь учитывает область извлечения, заданную методом SetExtractionArea ()
новые свойства в классах экстракции: ExtractionColumns - содержит координаты обнаруженных столбцов; CustomExtractionColumns - позволяет переопределить обнаружение столбцов
Методы GetPageRect * не учитывали поворот страницы.
Исправлена ошибка в установке, вызывающая некоторые файлы из предыдущей установки, мешала обновлениям
переработала регистрационную проверку. Теперь библиотека не будет генерировать исключение, но работать в демонстрационном режиме, если вы пропустили или внесли неправильное имя RegistrationName и RegistrationKey
PDF Multitool: добавлен недавний список документов в кнопку «Открыть документ PDF»
PDF Multitool: теперь можно изменить размер
PDF Multitool: добавлена функция Extract JSON
PDF Multitool: улучшенный пользовательский интерфейс для определения таблиц

PDF Multitool: значительно улучшено качество визуализации
PDF Multitool: добавлена опция отладки «Показывать обнаруженные столбцы извлечения» в контекстное меню, чтобы отображать обнаруженные столбцы на текущей странице. Становится видимым только после запуска любого извлечения против текущей отображаемой страницы
PDF Multitool: проблема исправления шрифтов в 32-битной Windows
другие незначительные улучшения и исправления ошибок.

Что нового в <6>

Добавлен класс утилиты TextComparer (доступен только в сборках .NET 4.0), позволяющий сравнивать текст в двух документах PDF и генерировать отчет.

Улучшена поддержка цветовых профилей ICC.

Явная обработка встроенных шрифтов.

Улучшен AttachmentExtractor.

Исправлен метод XMLExtractor.SaveXMLToStream ().

Исправлено извлечение дублированного текста при использовании параметра OCRCacheMode.WholePage.

Другие исправления ошибок и улучшения.

Что нового в версии 6.20.2354:
Версия 6.20.2354:

PDF To Text, PDF To CSV, PDF Для улучшения функций XML

Новые примеры извлечения, извлечения аудиофайлов

Извлекители CSV и XML улучшили поддержку таблиц с пустыми столбцами внутри

новый MultimediaExtractor для извлечения видео и аудио из PDF

новое свойство PageDataCaching

новый пример «MemoryCareProcessingOfHugeFiles»

Исправлено исключение null при попытке удалить уже расположенные страницы

XLSExtractor: улучшает поддержку шрифтов.

SkipInvisibleText теперь пропускает сжатый текст (который не отображается)

улучшение вывода текста

XFDF Extractor: добавлена поддержка флажков

Улучшен вывод изображений для поддержки дополнительных подформатов

Улучшена обработка текста в Юникоде

Что нового в версии 6.11.2149:
Версия 6.11.2149:

Образцы пакетной обработки обновлены, чтобы показать использование метода Reset ()

Исходный код C ++, добавленный для извлечения страниц

DocumentMerger добавляет метод Merge2 (inputfile1, inputfile2, outputfile) для объединения двух файлов

Исправлены ошибки XLS Extractor

PDF Multitool теперь позволяет включать / отключать текстовые, графические, векторные слои, добавлять дополнительные параметры для извлечения текста

XML, CSV, извлечение таблицы улучшает поддержку таблиц с ячейками emtpry внутри столбцов

. Улучшено свойство ExtractShadowLikeText: лучшая фильтрация для теневого текста

Что нового в версии 6.10.2136:
Версия 6.10.2136:

PDF to XML, PDF to CSV, улучшена функциональность PDF To Text

PDF В образец командной строки XLS добавлен (на основе vbscript)

PDF В HTML SDK добавлено новое свойство .DetectHyperLinks (по умолчанию TRUE), чтобы включить / отключить автоматическое обнаружение ссылок в тексте

новый SearchablePDFMaker (доступный для лицензий PRO) для преобразования PDF в файлы PDF с возможностью поиска

новые свойства в экстракторе: рассмотритеFontNames, рассмотритеFontSizes, рассмотритеFontColors, рассмотритеVerticalBorders в файлах CFG

обнаружение заголовков столбцов (когда AutoAlighHeaderToColumns = true) улучшено

.DetectLinesInsteadOfParagraphs заменены новым .LineGroupingMode, чтобы контролировать, как строки объединяются в параграфы

ВАЖНО! PDF To XML исправляет проблему с большим временем с неправильной координатой Y для текстовых объектов (указывал на нижний левый, а не на верхний левый)

. Добавлены свойства TableXMinIntersectionRequiredInPercents и .TableYMinIntersectionRequiredInPercents.

Добавлен образец исходного кода на C ++

XML Extractor исправляет отсутствие пустых столбцов в режиме PreserveFormatting = true

незначительные исправления в цветах в некоторых файлах PDF

добавлена поддержка нескольких языков OCR

PDF Multitool GUI: добавляет кнопку Copy to Clipboard в диалоговые окна TXT, CSV, XML и растрового рендеринга

XLSExtractor: добавляет свойство PageToWorksheet для включения / выключения генерации отдельных листов на страницу

новое свойство .TextEncodingCodePage

PDFViewerControl: добавляет ValidateContextMenu, позволяя пользователю добавлять пользовательские элементы в контекстное меню

Управление просмотром PDF: добавляет свойства ShowTextObjects, ShowImageObjects, ShowVectorObjects

XMLExtractor теперь добавляет атрибут «OCRConfidence» для распознанного текста

Функция проверки PDF / A (в бета-версии)

улучшение контроля и проверки текста и выравнивания в соответствии с исходной компоновкой. Проблема была вызвана сдвигом координат Y в элементах управления при разборе: это было неверно. Правильный способ - shif ...

Обновлен XML Extractor: теперь создается тег CONTROL для флажков и текстовых полей

изменилось использование текущего каталога в каталог temp

флаги, радиобокс, editboxes, comboboxes лучше поддерживаются

теперь позволяет частичным доверенным абонентам

Что нового в версии 5.80.1781:
Версия 5.80.1781:

PDF to XML, PDF to CSV, обновленная функциональность PDF to Text

OCRMode теперь предоставляет 9 режимов

.DetectLineInsteadOfParagraph теперь работает намного лучше. Установите False для захвата многострочного текста в ячейках таблицы!

Поддержка элементов управления PDF улучшена

Удаление данных FDF и XFDF

Что нового в версии 5.10.1747:

Версия 5.10.1747:

PDF to XML, PDF to CSV, улучшены функции PDF до Text

теперь поддерживает извлечение текста из текстовых элементов управления

XML-экстрактор теперь добавляет стиль шрифта, размер, имя, текстовые координаты в теги

Добавлен пример ASP.NET для использования OCR

новое свойство OCRLanguageDataFolder для указания местоположения папки "tessdata"

улучшена поддержка файлов PDF

улучшает поддержку поворота текста

обновленные примеры исходного кода

обновленная документация

незначительные улучшения и исправления

Что нового в версии 5.00.1626:

Версия 5.00.1626:

Добавлена функциональность OCR (текст из изображений): теперь вы можете извлекать текст из встроенных изображений и восстанавливать поврежденный текст

проблема исправлена с помощью CSV и XML-экстрактора, отсутствующих в последних столбцах с некоторыми настройками

улучшена поддержка поврежденных файлов PDF

теперь поддерживается многострочный текстовый поиск со способами сопоставления слов

теперь можно искать текст с дефисами и на разных строках: см. образец нового исходного кода. Поиск текста с помощью дефиса

новое свойство .RTLTextAutoDetectionEnabled (false по умолчанию) для автоматического определения языков RTL

Улучшен просмотр графического интерфейса PDF Viewer

незначительные улучшения и исправления

Требования :

.NET Framework 2.0 или выше

Ограничения strong>:

Экран Nag, водяной знак на выходе

15 Aug 18 в Разработка, Компоненты и библиотеки